'''
绿色，已经加入版本控制暂未提交；
红色，未加入版本控制；
蓝色，加入版本控制，已提交，有改动；
白色，加入版本控制，已提交，无改动；
灰色：版本控制已忽略文件。
'''

# 本书将聚集大数据分析中的经典方法和主流实现技术：机器学习基本原理，以及基于python编程和机器学习的数据建模分析

# 人工智能的研究经历了以下不同发展阶段：符号主义人工智能(symbolic AI)，到机器学习(Machine Learning)，再到深度学习(Deep Learning)

# 机器学习的核心：数据和数据建模。机器学习就是一种基于大型数据集，以发现其中隐藏的、有效的、可理解的规则为核心目标的数据建模过程。

# 1.1 例如数据预测问题：参与空气质量评定的主要污染物包括PM2.5、PM10、CO、SO2、NO2和O3。基于各种污染物的监测数据和空气质量等级数据，
# 如果能从量化角度准确找到导致空气质量等级敏感变化的污染物，不仅能通过对其控制来有效降低空气污染，还可基于污染物浓度对空气质量等级进行预测。

# 1.2 数据预测分为回归预测和分类预测

# 2. 数据聚类：数据聚类的目的是发现数据中可能存在的小雷，并通过小类刻画和解释数据的内在组织结构。数据聚类的最终结果是给每个样本观测指派
# 一个数据哪个小类的标签，称为聚类解。聚类解将保存在一个新生成的分类型变量中。

# 3. 关联分析：寻找事物之间的联系规律，发现它们之间的关联性

# 4. 模式诊断：从不同角度，采用不同的方法发现数据中可能存在的模式